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摘 要 : 针对 Word2Vec 模型 生成 的 词 向 量 缺 乏 语 境 的 多 义 性 以 及 无 法 创建 集 外 词 (OOV) 词 向 量 的 问题 ， 引 入 相似 
信息 与 Word2Vec 模型 相 结 合 ， 提 出 Word2Vec-ACYV 模型 。 该 模型 首先 基于 连续 词 袋 (CBOW) 和 Hierarchical Softmax 
的 Word2Vec 模型 训练 出 词 向 量 和 王 阵 即 权重 答 阵 ; 然后 将 共 现 矩 阵 进 行 归 一 化 处 理 得 到 平均 上 下 文 词 向 量 ， 再 将 词 向 
量 组 成 平均 上 下 文 词 向 量 和 矩阵 ; 最 后 将 平均 上 下 文 词 向 量 和 天 阵 与 权重 矩阵 相 乘 得 到 词 向 量 和 矩阵 。 为 了 能 同时 解决 集 外 
词 及 多 义 性 问题 ,将 平均 上 下 文 词 向 量 分 为 全 局 平均 上 下 文 词 向 量 (Global ACV ) 和 局 部 平均 上 下 文 词 向 量 (Local ACV) 
两 种 ， 并 对 两 者 取 权 值 组 成 新 的 平均 上 下 文 词 向 量 矩 阵 。 将 Word2Vec-ACYV 模型 和 Word2Vec 模型 分 别 进行 类 比 任务 
实验 和 命名 实体 识别 任务 实验 ， 实 验 结果 表明 ，Word2Vec-ACV 模型 同时 解决 了 语 境 多 义 性 以 及 创建 集 外 词 词 向 量 的 
问题 ， 降 低 了 时 间 消 耗 ， 提 升 了 词 向 量 表 达 的 准确 性 和 对 海量 词汇 的 处 理 能 

关键 词 : Word2Vec 模型 ; 词 向 量 ; 共 现 算 阵 ; 平均 上 下 文 词 向 量 

中 图 分 类 号 : TP391.1 doi: 10.3969/j.issn.1001-3695.2017.12.0800 


Word2Vec-ACV: word vector generation model of OOV context meaning 
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Abstract: The Word2Vec model is a neural network model (NNLM) that converts words in text into a word vector. It is widely 
used in natural language processing tasks such as emotional analysis, question answering robot and so on. Word vectors 
generated for the Word2Vec model lacked the ambiguity of context and the inability to create OOV word vectors. Based on the 
similarity information of document context and Word2Vec model, this paper proposed a word vector generation model that 
conforms to the meaning of OOV context. It is called the Word2Vec-ACV model. The model was similar to the process of the 
word vector generated by the Word2Vec model, but it was different. First of all, Word2Vec model of the continuous word bag 
(CBOW) and the Hierarchical Softmax trained the word vector matrix, namely the weight matrix. Secondly, the co-occurrence 
matrix was normalized to get the average context word vector. Then, the word vector consisted of an average context word 
Vector matrix. Finally, the vector matrix of the average context word vector matrix and the weight matrix were multiplied to get 
the word vector matrix. In order to simultaneously solved the ambiguity problem of out of vocabulary words and out of 
vocabulary words to create. In this paper, the average context word vectors were divided into two kinds: the global average 
context word vector (global ACV) and the local average context word vector (local ACV) . In addition, the two taken the weight 
value to form a new average context word vector matrix. The Word2Vec model can effectively express the word in vector form. 
Experiments on analogical tasks and named entity recognition (NER) tasks respectively, the results show that the Word2Vec- 
ACV model is superior to the Word2Vec model in the accurate expression of the word vector. It js a word vector representation 
method to create a contextual context for OOV words. 
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在 自然 语言 处 理 领 域 中 , 表征 学 习 (representation learning) 工业 界 普遍 研究 的 热点 。 伴 随 对 深度 学 习 串 的 深入 研究 ， 在 监 
是 指 从 单个 或 一 组 符号 中 学 习 其 赋予 的 含义 或 其 指 代 的 事物 。 督学 习 任务 中 ， 将 神经 网 络 语言 模型 (NNLM) 训练 出 来 的 词 
表征 学 习 的 主要 内 容 是 词汇 学 习 (vocabulary learning)， 如 何 将 向 量 作 为 文本 特征 ， 与 简单 且 标 准 化 的 词 袋 模型 (BOW) ?> 
词汇 中 隐藏 的 信息 以 词 向 量 的 形式 表达 出 来 已 经 成 为 学 术 界 和 映射 生成 的 词 向 量 作为 文本 特征 相 比 ， 有 显著 地 提高 。 
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2.1 基于 CBOW 和 Hierarchical Softmax 的 Word2vec 模型 
Word2Vec 模型 是 建立 在 神经 网 络 语言 模型 (NNLM) 基础 


上 , 移 除 前 向 反馈 神经 网 络 中 非 线性 的 隐藏 层 (hidden layer) ， 


的 分 量 值 分 别 表示 该 分 量 所 对 | 


点 的 词 在 文本 中 


b 现 的 次 数 。 在 


直接 将 中 间 的 舱 入 层 (embedding layer ) 与 输出 层 (softmax layer) 


传统 分 类 器 上 词 袋 模型 有 很 好 的 分 类 效果 ,但 随 着 新 词 的 增加 ， ” 相连。 忽略 其 上 下 文中 的 语序 信息 ， 将 输入 层 输入 的 上 下 文 词 
向 量 的 维 数 也 会 随 之 增加 ， 这 样 会 导致 维 数 灾难 现象 地 产生 。 向 量 汇 总 到 虑 入 层 得 到 一 个 连续 的 词 向 量 esRy ， 然 后 直接 与 
在 Bengio 等 人 外 提出 三 层 神 经 网 络 语言 模型 的 基础 上 hierarchical softmax 相连 得 到 Word2vec 模型 ， 如 图 1 所 示 。 
Mikolov 等 人 69 于 2013 年 首次 提出 Word2vec 模型 ， 该 模型 仅 输入 层 包含 预测 目标 词 的 < 个 上 下 文 的 词 向 量 ， 其 中 V 表 
考虑 “局 部 上 下 文 ” 来 学 习 有 意义 的 词 向 量 ， 得 益 于 浅 层 的 字 示 词 向 量 的 长 度 。 骨 入 层 先 将 输入 的 上 下 文 词 向 量 
经 网 络 结构 ， 使 得 其 可 以 从 大 型 的 语料库 中 有 效 地 训练 出 词 向 vtwina) vbwss)…,v(wae)e R" 求 和 取 平 均值 作为 输出 得 到 esRy 。 
量 。 然 而 Word2vec 模型 只 能 从 给 定 的 语料库 中 训练 出 词 向 量 。 其 中 ，。 是 一 个 NN 维 向 量 。 输 出 层 对 应 一 颗 二 叉 树 ， 用 语 料 中 
假如 在 任务 中 ， 遇 到 一 个 在 训练 过 程 中 没有 出 现 过 的 新 单词 ， 出 现 过 的 词 当 叶 子 节点 ， 以 各 词 在 语 料 中 出 现 的 次 数 当权 重 构 
就 必须 重新 使 用 Word2vec 模型 为 这 个 新 词 单独 创建 词 向 量 ， 造 出 Huffman 树 。 在 Huffman 树 中 ， 叶 子 节点 共 V 人 | 中 个 ,分 
这 就 导致 大 量 重复 的 时 间 消 耗 在 模型 的 训练 上 。 此 外 ， 单 一 的 。”” 别 对 应 词典 DD 中 的 词 w (图 1 中 标 为 白色 的 若干 节点 ) ， 非 叶 
词 向 量 并 不 能 最 优 地 表示 一 个 具有 多 重 含义 的 词 。 例 如 “包容 ” ” 子 节 点 V-1 个 (图 1 中 标 为 黑色 的 若干 节点 ) 。 其 中 ， 在 层次 
既是 指 用 布 包 起 来 的 包 儿 ， 也 是 比喻 某 种 负担 ， 只 有 考虑 到 这 Softmax 模型 中 每 个 非 叶 子 节点 对 应 一 个 辅助 向 量 Vj) 。 Zoo) 
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过 去 ，NNLM 以 多 种 方式 解决 了 多 义 性 
Word2Vec 模型 对 文本 中 单词 顺序 不 敏感 ，Wang 和 
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基于 Word2Vec 改进 的 Wang2Vec 模型 ,该 模型 


的 含义 。 
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方法 组 成 ， 将 语序 纳入 到 
对 语法 效果 有 明显 的 提高 。 
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息 来 编码 单词 的 多 重 


含义 。Trask 等 人 


BJ 提出 Sense2Vec 模型 ， 是 对 Word2Vec 模型 的 改进 , 在 语 料 训 
E 的 标注 ， 生 成 新 表示 形式 。 例 如 ， 一 个 词 


练 的 过 程 中 加 入 词 折 
同时 拥有 名 词 和 动词 两 种 词性 。 但 是 以 上 模型 都 不 是 外 
解决 OOV 和 多 义 性 
参数 和 训练 过 程 中 增加 额外 步 又 


对 局 
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问题 而 设计 的 ， 


且 有 些 模型 需要 更 多 的 


使 得 模型 变 得 复杂 。 针 对 以 上 


模型 不 能 同时 解决 OOV 和 多 义 性 问题 ， 本 文 提出 Word2Vec- 


ACYV 模型 。 
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中 训练 出 权重 矩阵 W， 然 


到 平均 


后 将 共 现 甜 


上 下 文 词 向 量 和 矩阵 9$ ， 最 后 将 平 


与 权重 和 矩阵 W 相 乘 得 到 词 的 向 量 表示 。 
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2 Word2Vec 及 Word2Vec-ACYV 的 原理 介绍 


Word2Vec-ACV 模型 是 在 Word2Vec 模型 的 基础 上 针对 词 


之 间 的 相似 特性 所 提出 ， 通 过 


内 入 的 准确 性 ， 是 


寸 结合 词 之 间 的 相似 性 
种 用 于 生成 词 向 量 的 神经 网 络 语言 模型 。 


把 整个 语料库 放 入 到 Word2Vec 模型 
阵 Co 进行 归 一 化 处 理 得 
均 上 下 文 词 向 量 矩 阵 5 
吾 料 库 数 据 
集训 练 生 成 的 词 向 量 分 别 对 Question Word 类 比 任 务 5.9 和 命 
10 任 务 进行 
ACYV 模型 生成 词 向 量 的 准 
创建 OOV 词 向 量 以 及 赋予 词 


命名 


伶 结 果 表 明 ，Word2vec- 
能 有 效 地 


表示 从 根 节 点 到 达 叶 子 节点 w, 的 路 径 长 度 ( 图 1 中 用 黑 线 标注 
的 线段 ) 。n(w, 放 表示 从 根 节点 到 目标 词 ”路 径 上 的 第 7 个 节点 
叶子 节点 上 的 任意 词 w， 在 Huffman 树 中 必 存 在 一 条 从 根 
告 点 到 目标 词 w 对 应 非 叶 子 节点 nw,j) 的 路 径 。 路 径 上 存在 
ZL(w)-1 个 分 支 ， 将 每 一 个 分 支 看 做 一 次 二 分 类 ， 每 一 次 二 分 类 
就 产生 一 个 概率 ， 将 概率 相 乘 ， 得 到 该 模型 的 目标 函数 
p(w=wo)。 先 对 目标 函数 取 对 数 得 到 似 然 函 数 E， 再 通过 随机 
梯度 算法 对 似 然 函数 进行 迭代 ， 得 到 最 优 的 参数 ， 从 而 获得 最 
优 的 权重 矩阵 W 。 
Input Layer Embedding Layer Output Layer 
V(win) ， 
Www 
V(w:) » Wun summation 上 
dim © 0 @ Ww 
. Whos ™ 
V(Wne) “ 
四 CxV-dim 


图 1 基于 CBOW 和 Hierarchical Softmax 的 Word2vec 模型 


2.2 ”Word2Vec-ACYV 模型 


本 文 有 针对 性 地 对 一 定量 的 文献 进行 研究 5E9, 发 现 根据 上 
下 文 单词 出 现 的 频率 ， 所 构成 的 词 向 量 和 矩阵 CsR"” 能 计算 出 


词典 DD 中 V 个 词 相互 之 间 的 相似 度 ， 得 到 由 相似 度 为 0 到 1 之 
间 的 一 个 值 所 构成 的 相似 和 矩阵 Sime R™ 或 者 词 w 的 相似 向 量 
Sim, e R" 。 这 些 相似 性 将 会 保留 在 词 向 量 中 。 例 如 ， 相 似 的 两 
个 词 之 间 的 词 向 量 的 余弦 值 接近 1, 或 者 词 向 量 矩 阵 CsR"” 的 


信息 


提高 词 


标量 积 近 似 于 相似 矩阵 Sime RY”Y” 。 显 然 ， 获 得 词 向 量 和 矩阵 
C.C7 x Sim 最 优 的 方式 就 是 计算 相似 矩阵 sime R"W 的 奇异 值 


ne 447V1 


chinaXiv 
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分 解 (SVD〉 ， 并 使 用 对 应 于 N 最 大 特征 值 的 特征 向 量 咏 轨 。 词 wi 在 文本 中 出 现 的 次 数 M 得 到 平均 上 下 文 词 向 量 和 矩阵 


于 语料库 中 数 以 万 计 的 词组 成 的 相似 矩阵 是 非常 巨大 的 ， 但 SeR'w ， 其 中 每 一 行 代表 词 w 的 平均 上 下 文 词 向 量 V sR' 。 
大 多 数 词 都 不 是 同义词 ， 所 以 相似 矩阵 是 稀 玻 矩阵 便于 进行 为 了 能 够 快速 、 高 效 地 为 集 外 词 创建 词 向 量 以 及 使 创建 出 
SVD 计算 。 来 的 词 向 量 符合 上 下 文 语 境 ， 本 文 将 平均 上 下 文 词 向 量 分 为 全 


Word2Vec 模型 的 输入 层 是 将 与 目标 词 相连 的 KK 个 上 下 文 ”局 平均 上 下 文 词 向 量 (global ACV) 和 局 部 平均 上 下 文 词 向 量 
词 作为 输入 ， 经 过 风 入 层 ， 将 中 间 结 果 沿 着 输出 层 Huffman 树 (local ACV ) 组 成 两 种 。 其 中 global ACV 是 对 整个 语料库 中 的 
上 的 非 叶 子 节 点 到 达 目 标 词 所 在 的 叶子 节点 , 此 时 选择 的 K 个 ” 词 wi 的 词 向 量 根 据 词 w 出 现 的 次 数 Mwoisa 求 平均 值 ， 即 由 语 
词 与 目标 词 的 相似 度 较 大 ， 如 果 随 机 选择 K 个 词 ， 则 与 目标 词 料 生成 的 共 现 矩阵 Cowwwar 中 的 每 一 行 除 以 该 词 在 文本 中 出 现 的 
之 间 的 相似 度 接 近 于 0。 因 此 ， 一 个 词 的 词 向量 cv eR* 与 所 有 次数 Mwowwar 获得 ， 记 为 Wsiwpar。 
词 构成 的 词 向 量 矩 阵 Cs RW 相 乘 得 到 一 个 向 量 六 sR' 的 相似 


度 接 近 目 标 词 w 。 基 于 CBOW 和 Hierarchical Softmax 的 Vp -天 一 和 (1) 
Word2vec 模型 在 训练 词 向 量 的 过 程 中 能 很 好 地 解释 这 一 相似 Sa 
性 过 程 。 在 训练 过 程 中 ， 每 个 出 现 的 词 w; 是 以 一 个 二 进 制 向 量 同 理 ，local ACV 是 对 集 外 词 所 在 的 文档 中 词 w 的 词 向 量 
w sR 的 形式 通过 输入 到 模型 中 与 权重 矩阵 Ww sR"w 权重 矩 ” 根据 词 w 出 现 的 次 数 Mwuw 求 平均 值 ， 记 为 Vw 。 
阵 相 乘 得 到 。 ， 然 后 经 过 Hierarchical Softmax 层 抵达 叶子 节点 1 su 
为 wi 的 目标 节点 , 说 明 6 包 含有 词 wi 与 其 他 词 的 相似 信息 。 可 人 
以 很 好 地 解释 一 个 词 的 词 向 量 c,e R" 与 所 有 词 构成 的 词 向 量 对 ws 与 wu 中 相同 词 w 对 应 的 词 向 量 按 一 定 的 比例 
矩阵 CsR"w 相 乘 得 到 一 个 向 量 %,e RV 的 相似 度 接 近 目 标 词 4 求 和 得 到 加 权 平 均 上 下 文 词 向 量 矩 阵 9$ ， 如 式 (3) 所 示 。 
$=-Visat (a) Vc) G) 
将 相似 性 信息 保留 在 词 向 量 中 ， 会 在 一 定 程度 上 提升 词 的 
乱入 效果 ， 然 而 Word2Vec 模型 并 没有 考虑 将 相似 信息 纳入 到 将 式 (3) 中 得 到 的 加 权 平 均 上 下 文 词 癌 量 矩 阵 $ 与 权重 和 珑 
该 模型 中 。 本 文 提出 的 Word2Vec-ACYV 模型 是 将 相似 性 信息 纳 ” 阵 W 相 乘 最 终 得 到 词 向 量 矩 阵 矶 。 。 
入 Word2Vec 模型 所 创建 。Word2Vec-ACYV 模型 如 图 2 所 示 。 Wa,=SxW (4) 
0 其 中 ，ae[04]，a 的 设置 用 于 调节 词 w 受 上 下 文 影响 的 程度 ， 
这 有 助 于 解决 语 境 多 义 性 问题 (1。 
Wi 虽然 该 模型 与 Word2Vec 模型 训练 词 向 量 的 过 程 相同 ， 但 


训练 完成 后 ， 词 向 量 的 计算 方式 存在 差异 。 在 Word2Vec 的 情 


Hp 况 下 ， 词 向 量 是 调整 后 权重 算 阵 W 的 行 向 量 。Word2Vec-ACV 
wd : 模型 是 将 权重 矩阵 W 与 经 过 归 一 化 处 理 后 得 到 的 平均 上 下 文 

| 词 向 量 矩 阵 Se RY 相 乘 得 到 的 新 权重 矩阵 We R"”” 的 行 向 量 
ve 表示 词 的 向 量 。 

® CxV-dim 


3 ”Word2Vec-ACV 模型 推导 及 其 实现 


本 文 对 Word2Vec-ACYV 模型 的 参数 推导 时 将 采用 随机 梯度 
法 〈stochastic gradient method) ， 简 称 SG 法 。 因 为 SG 法 对 参 
Word2Vec-ACV 模型 与 Word2Vec 模型 的 词 向 量 生成 过 程 。” 数 的 推导 过 程 实现 简单 且 高 效 ， 在 Word2Vec-ACYV 模型 中 输入 
类 似 , 但 细节 不 同 。Word2Vec-ACV 首先 将 语 料 通 过 Word2Vec ”的 词 向 量 v, 是 已 知 的 ， 而 权重 W 和 嵌入 层 的 输出 向 量 ei 以 及 
训练 出 词 向 量 的 权重 矩阵 We R™ ， 再 将 由 共 现 矩阵 Co <s RY Hierarchical Softmax 模型 中 的 辅助 向 量 V(w, 由) 是 未 知 的 ， 这 就 
进行 归 一 化 处 理 得 到 的 平均 上 下 文 词 向 量 V eR" 组 成 得 到 平 需要 采用 SG 法 对 参数 进行 优化 。 
均 上 下 文 词 向 量 矩 阵 8SsR"" ，, 最 后 将 权重 E 算 了 WeR” 与 经 过 3.1 输入 层 到 嵌入 层 的 推导 过 程 
归 一 化 处 理 后 得 到 的 平均 上 下 文 词 向 量 和 矩阵 se RW 相 乘 得 到 输入 层 输 入 的 是 上 下 文 词 向 量 的 平均 值 ， 其 中 每 个 词 用 独 
新 的 权重 矩阵 We R”W 。 其 中 ,平均 上 下 文 词 向 量 矩 阵 ” 热 编码 向 量 (one-hotencoded vector) (1 表示， 即将 给 定 的 上 下 
Se RW 构造 过 程 如 下 : 首先 是 由 第 i 次 出 现 的 词 w 与 词 w 在 同 。 文 词 表示 成 8, 加 …, 驴 } 的 向 量 形式 ， 其 中 向 量 的 分 量 罗 中 内 
个 窗口 出 现 的 词 所 构成 的 二 进 制 向 量 vw eR", 其 中 上 下 文 词 。 有 一 个 为 1， 其 他 分 量 全 为 0。 权 重 矩 阵 W 的 每 一 行 可 理解 为 
出 现 的 位 置 为 1, 其 余 的 位 置 为 0。 对 每 个 词 每 次 的 出 现 结果 累 ”输入 词 w 的 X 维 词 向 量 w sR" 。 计 算 典 入 层 输出 时 ， 将 输入 上 
加 得 到 共 现 矩阵 Co e R”Y” 。 再 对 共 现 矩阵 Co e R” 每 一 行 除 以 ” 下 文 词 向 量 的 平均 值 作为 输出 ， 即 为 ee RY 。 则 有 


图 2 ACV-Word2vec 模型 


> 
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了 (5) 


其 中 : C 是 上 下 文 词 向 量 的 个 数 ; wi,ww…， 
是 词 w 的 输入 向 量 。 
将 输入 词 向 量 更 新 公式 定义 为 


w. 是 上 下 文中 的 词 ; 


w= EH (0) 


we 是 上 下 文中 输入 的 第 c 个 词 的 向 量 ; 7 


是 学 习 率 ; EH -过 二 是 对 数 似 然 函数 对 输出 向 量 e 的 导数 。 


3.2 ”和 做 入 层 到 输出 层 的 推导 过 程 

经 网 络 语言 模型 的 目标 函数 通常 是 取 条 件 概率 函数 的 对 
数 似 然 函数 ， 最 关键 的 是 对 条 件 概率 函数 p(w=w,) 的 构造 。 在 
Hierarchical Softmax 模型 中 ， 将 目标 词 w 的 概率 输出 作为 条 件 
概率 函数 。 定 义 如 下 : 


Ze 
p(w = wo ) = ml o( n(w, 了 十 1) = ch(n(w, 诈 ， Vj) : e] (7) 


~ 


其 中 : cn 四 是 节点 ntw 旋 的 左 孩子 节点 ; Vitwj) 是 非 叶子 节点 
zw 放 的 辅助 向 量 ;是 嵌入 层 的 输出 值 ; 轩 是 一 个 特殊 函数 ， 


在 Huffman 树 中 用 于 给 非 叶子 节点 的 左右 孩子 节 0 
别 ， 即 哪个 是 正 类 标签 为 1) ， 哪 个 是 负 类 《标签 为 -1) 。 


1 if xis true; 
时 | (8) 


—] otherwise. 


通过 预测 目标 词 w 说 明 推导 过 程 。 在 图 2 中 , 从 根 节 点 出 
发 到 达 叶 子 节点 w， 中 间 共 经 历 了 4 次 分 支 ， 每 次 分 支 都 可 视 
为 进行 了 一 次 二 分 类 。 使 用 司 函数 对 节点 进行 标注 ， 其 中 , 左 
孩子 节点 的 标签 为 1, 右 孩 子 节点 标签 -1。 根据 逻辑 回归 知识 ， 
利用 Sigmoid 函数 ， 可 计算 出 分 到 左 孩 子 节点 的 概率 p(n,1ef) 。 


pp)=cfw O) 
则 分 到 右 孩子 节点 的 概率 p(nrighD) 为 


-cf =c(- oe) (10) 


从 根 节点 到 叶子 节点 w 的 路 径 可 得 到 w, 作为 词 输出 的 条 


pln, right)=1 


件 概 率 p(w,w,)， 将 式 (9)(10) 代 入 到 plw,w,) 中 ,计算 公式 如 式 
(11) 和 (12) 所 示 。 
pw =wo)= pln(w,1) 1ef): plnlws,2) 1efi): pln(w,3) right) (11) 
p(w, = wo)= owe -] ov 3 . owt 3 (12) 
经 归 一 处 理 得 到 
》 ptw =w)=1 (13) 
以 下 开始 推导 非 叶子 节点 对 应 的 辅助 向 量 ww 的 参数 更 


新 方程 ， 为 下 文 梯度 函数 的 推导 方便 ， 将 式 (7) 中 的 符号 中 里 的 
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内 容 简 记 为 败 ， 将 V6 简 记 为 w ， 如 式 (14)(15) 所 示 。 
全 =|pow7zD=eaetw7 训 (14) 
vy = Vi (15) 


一 般 基 于 神经 网 络 语言 模型 的 目标 函数 通常 取 对 数 似 然 函 
数 ， 即 如 式 (16) 所 示 。 


E= > logptw=wolmw) (16) 


将 式 (7) 代 入 对 数 似 然 函数 式 (16) 中 得 
式 (17) 所 示 。 


到 目标 函数 已 ， 即 如 


Znw 上 1 
E=-logp(w=wolw,) > add (17) 


4 


式 (17) 推 导出 的 对 数 似 然 函 数 E 就 是 CBOW 模型 的 目标 
函数 。 为 了 使 目标 函数 E 的 值 最 大 ， 式 (18) 采用 随机 梯度 上 


升 算法 ， 梯 度 类 算法 的 关键 是 给 出 梯度 计算 公式 ， 下 文 为 梯度 
计算 的 推导 过 程 。 

随机 梯度 上 升 算法 的 过 程 是 每 对 样本 进行 一 次 采样 ， 就 会 
对 标本 数 中 的 相关 参数 进行 一 次 更 新 。 由 目标 函数 E 式 (17) 
可 知 ， 该 函数 参数 包括 向 量 e。，v; ，wec ，j=1…,L(w)-1。 首 
| 


oe) = 人 = ]) 
= (cl el = cf —t;(18) 


owe) (= 


其 中 :如果 加 =1 则 =1， 否 则 =-1。 


接 下 来 考虑 E 关于 非 叶 子 节 点 n(w,j) 的 辅助 向 量 v 的 梯度 
计算 ， 即 
Og _ OE we _( (os) 
Ov, Ovie Ov, cl ) 中 (19) 
于 是 ，vj 的 更 新 公式 可 写 为 
= vi i ove) 本 ] (20) 


其 中 ; 了 表示 学 习 率 ，c[( wy oj- 表示 非 叶子 节点 a(w) 的 预测 


误差 ; i; =1 表 示 接 下 来 到 左 孩 子 节点 ; t; =0 表示 接 下 来 到 右 孩 


子 节 点 ; oe) 是 预测 值 ， 是 预测 非 叶子 节点 接 下 来 是 左 孩子 
节点 还 是 右 孩 子 节点 的 概率 值 。 
3.3 层 到 输入 层 的 推导 过 程 


蒋 入 
通过 对 数 似 然 函 数 反 向 推导 出 权重 矩阵 的 更 新 公式 ， 考 
虑 巨 关 于 嵌入 层 的 输出 向 量 。 的 梯度 计算 式 21)， 即 


og og ee fr 
a oe Se 5) =EH CD 
将 式 21) 直 接 代入 式 (9) 可 得 到 权重 矩阵 W 的 更 新 公式 。 


3.4 权重 矩阵 Wnew 的 推导 过 程 
将 更 新 后 的 权重 矩阵 W 与 平均 上 下 文 词 向 量 矩 阵 Se RY 
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相 乘 得 到 新 的 权重 矩阵 W。, e R"W 作为 词 的 向 量 表 示 。 数 。 实 验 结果 如 表 1 所 示 。 
Wm = SXW (22) 表 1 Word2Vec 和 Word2Vec-ACYV 模型 1 次 迭代 类 比 任务 准确 性 /% 
4 ”实验 类 别 Word2Vec Word2Vec-ACV 
capital-common-countries 10.5 36.0 
4.1 实验 环境 capital-world 4.3 19.9 
实验 环境 为 Pentium Dual-Core CPU E5300t@12.60 GHz，2 oiitrenby 45 116 
GB 内 存 、500 GB 硬盘 的 台式 机 。 操 作 系统 为 Windows 7， 实 Gn 109 207 
验 工 具 为 Anaconda2(64-bit) 以 及 JetBrains PyCharm Community Family 53.9 614 
Edition 2017.1.2 x64 gram1-adjective-to-adverb 6.1 8.6 
4.2 数据 集 的 获取 gram2-opposite 15.4 18.3 
类 比 任务 中 使 用 到 的 text8 和 questions-words 数据 集 均 是 do paralive 449 了 
从 Google 官网 下 载 得 到 , 语料库 text8 是 由 10 人 个 单词 组 成 的 pa 22.9 D0 
一 行 句子 , 其 中 包含 27 种 字符 ， 即 小 写 的 从 a 到 z 的 字母 及 空 rd preeni Dantelsie i 认 训 
格 符 。 数 据 集 questions-words 中 包含 family 等 14 个 类 别 ， 每 gram6-nationality-adjective 36.0 37.6 
个 类 别 中 的 数据 是 4 列 。 gram7-past-tense 17.3 18.5 
命名 实体 识别 任务 中 使 用 的 数据 是 CONLL-2003 命名 实体 a pi 279 295 
69 任 务 中 的 数据 其 中 一 份 用 于 训练 Word2Vec 词 向 量 的 Traing Sr plital vorbs D3 30 
数据 , 以 及 两 份 用 于 测试 的 Development 数据 和 Testa、Testb 数 | 20 5 257 
据 。 数 据 中 每 行 包含 4 个 字段 : 单词 、POS 标签 031、 块 标签 、 
命名 实体 标签 。 用 0 标记 的 是 外 来 的 命名 实体 ，I-XXX 标签 表 1 列 出 了 Word2Vec 和 Word2Vec-ACYV 模型 对 14 个 类 别 
于 XXX 类 型 的 命名 实体 中 的 单词 ,数据 包含 4 种 类 型 的 实体 : 下 进行 1 次 迭代 各 自 的 准确 性 。 在 前 3 个 类 比 任务 中 ， 
PER、 ORG、 LOC、 MISC. Word2Vec-ACYV 模型 的 准确 性 都 是 Word2vec 模型 的 2 倍 以 上 ， 
4.3 两 组 实验 任务 其 中 capital-common-countries 类 别 任 务 中 的 准确 性 高 达 3.43 倍 。 
为 了 有 效 地 说 明 Word2Vec-ACYV 模型 的 优点 ， 本 文 分 别 通 ”通过 对 实验 结果 分 析 表 明 Word2Vec-ACYV 模型 在 类 比 任务 中 的 
过 类 比 任务 (analogy task) 和 命名 实体 识 任务 (NER task) 对 准确 性 要 比 Word2Vec 模型 在 类 比 任务 中 的 准确 性 要 高 。 这 是 
Word2Vec-ACYV 模型 进行 评估 实验 。 于 在 某 些 类 比 任务 中 词 只 有 单一 含义 ， 而 其 他 类 比 任务 中 词 
4.3.1 类 比 任务 有 多 重 含义 。 说 明 词义 的 多 样 性 对 准确 性 计算 的 影响 较 大 ， 也 


为 了 表明 Word2Vec-ACYV 模型 创建 的 词 向 量 能 有 效 地 反映 表明 在 获取 词 之 间 的 语义 关系 方面 ，Word2Vec-ACYV 模型 要 优 
出 词 之 间 的 语义 的 关系 ， 本 文 借用 Mikolov 等 人 在 Word2Vec 于 Word2vec 模型 。 


al 


论文 中 提 到 的 类 比 任务 "J 进行 评估 实验 。 本 实验 首先 运用 基于 表 2 Word2Vec 和 Word2Vec-ACV 模型 10 次 逻 代 类 比 任 务 准确 性 /% 
CBOW 和 Hierarchical Softmax 的 Word2vec 模型 对 text8 语 料 类 别 a or AE 
库 进行 训练 ， 其 中 式 (3) 中 的 a。 赋值 为 1，/w=1， 册 入 维度 200 i 648 79.01 
维 ， 随 机 种 子 为 3， 且 上 下 文 窗口 取 值 为 5。 然 后 将 从 含有 17 | 33.9 579 
005 207 个 单词 “删除 掉 那 些 计 数 <5 的 单词 ) 的 语料库 中 训练 CG 15.9 19.6 
出 来 的 253 854 个 Word2Vec 词 向 量 和 再 将 Word2Vec 词 向 量 与 city-in-state 29.3 44.3 
这 253 854 个 词 相 应 的 平均 上 下 文 词 向 量 箱 阵 相 乘 得 到 的 family 79.5 76.4 
Word2Vec-ACV 词 向 量 运用 到 类 比 任务 中 。 其 中 ， 类 比 任务 是 graml-adjective-to-adverb 11.01 16.7 
一 系列 A-8=C-D 类 问题 , 即 通 过 类 比 词 向 量 4 减 去 词 向 量 B gram2-opposite 24.4 27.3 
的 形式 预测 出 词 向 量 C 对 应 的 词 向 量 D 然后 再 与 正确 答案 进 gram3-comparative 64.9 64.3 
行 匹 配 , 从 而 评估 出 模型 性 能 。 例 如 , 给 定 A: King、 B: Queen、 Pe | 
C: Man 预测 D: Woman。 gram5-present-participle 30.9 31.3 
大 了 评 信 Word2Vec 模 天 和 Word2Veo-ACY 村 通 在 区 比 企 gram6-nationality-adjective 71.6 67.6 
务 中 的 准确 性 ， 引入 准确 性 09 计 算式 (23)。 gram7-past-tense 30.3 33.3 
gram8-plural 48.9 49.5 
Accuracy = 一 (23) gram9-plural-verbs 41.5 32.2 
total 42.1 47.4 


其 中 : correct 表示 预测 正确 的 个 数 ，incorrect 表示 预测 错误 的 个 
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表 2 列 出 了 Word2Vec 和 Word2Vec-ACYV 模型 对 14 个 类 别 


下 进行 10 次 迭代 各 自 的 准确 性 。 实 验 
比 任务 的 准 


的 词 向 量 准确 率 是 Word2Vec 模型 的 1 


分 析 表 明 Word2Vec-ACV 模型 在 类 比 任 


结果 表明 10 次 欠 代 的 类 
确 率 整 体 优 于 在 1 次 迭代 中 的 准确 率 ， 且 在 10 次 
迭代 中 的 capital-world 类 别 任务 ，Word2Vec-ACV 模 


Word2Vec 模型 在 类 比 任务 中 的 ; 


E 确 性 


ACV 模型 训练 出 的 词 向 量 要 优 于 Word2Vec 训练 
说 明 语 料 迭 代 的 次 数 会 影响 到 实验 的 结果 。 


4.3.2 NER 任务 


Word2Vec-ACV 模型 的 主要 优点 是 能 够 使 / 


型 训练 出 

.7 人 和信。 通过 对 实验 结果 
务 中 的 准确 性 要 比 
要 高 ， 表 明 Word2Vec- 
出 的 词 向 量 ， 

局 部 平均 上 下 


文 词 向 量 和 矩阵 来 创建 OOV 词 向 量 ， 并 区 分 词 的 不 同 含义 。 实 


验 采 用 


Word2vec 模型 相 比 来 说 明 Word2Vec-ACV 模型 
CoNLL 2003 NER 任务 中 的 Traing 数据 用 于 Word2Vec 模型 训 
， 其 中 在 Development 和 一 份 包含 Testa，Testb 
的 测试 数据 中 的 OOV 用 零 向 量 表 示 。 并 将 得 到 的 词 量 五 分别 
与 Development 和 Test 数据 中 的 平均 上 下 文 词 向 量 和 矩阵 相 乘 创 
Ta,, A Tb,, 。 


练 出 词 向 量 了， 


建 Word2Vec-ACYV 词 向 量 D,,、 


CoNLL 2003 NER 任务 49 作为 外 部 评估 ， 与 常规 的 


4 的 这 一 优点 ,将 


将 训练 出 来 的 词 向 


量 同时 与 逻辑 回归 分 类 模型 一 起 使 用 。 
对 结果 的 影响 ， 本 实验 只 


\ 使 用 词 向 量 作 为 特征 信息 ， 不 使 用 例 


时 中 ， 为 排除 其 他 因素 


模型 实验 乡 


如 POS 标签 等 其 他 信息 。 为 了 评价 本 文 提 出 的 Word2Vec-ACV 
吉 果 的 质量 ， 将 实验 得 到 的 结果 引入 一 
Fi — Measure {17], Fy — Measure ee 


个 评价 标准 
回 率 加 权 调 


和 平均 的 统计 量 。 准 确 率 和 召回 率 是 / 


计 学 分 类 领域 的 两 个 度量 值 ， 用 来 评价 结 


泛 应 用 于 信息 检索 和 统 
果 的 质量 。 准 确 率 是 


检索 出 相关 文档 数 与 检索 出 的 文档 总 数 的 比率 ， 衡 量 的 是 检索 


系统 的 查 准 


有 的 相关 文档 数 的 比率 ， 衡 量 的 是 检索 系统 的 查 全 率 。 


式 如 下 : 


(2 十 1j* Precision * Re call 


率 ; 召回 率 是 指 检索 出 的 相关 文档 数 和 文档 库 中 所 


计算 公 


Va p Measure = 


(B2 *Precision + Re ca 中 


Q4) 


其 中 : 当 B=1 时 ， 即 为 。 Precision 是 准 


确 率 ， 表 示 为 命名 实体 


识别 任务 中 访 


只 别 正确 的 样本 数 与 总 样本 的 比率 ;，Recall 是 召 


| 


率 ， 表 示 为 命名 实体 识别 任务 中 识别 正确 的 样本 数 与 实际 任务 


中 的 总 样本 数 的 比率 。 根 据 模型 和 CoNLL 2003 NER 任务 将 准 


确 率 和 召回 率 定 义 为 如 下 公式 ; 


， 模型 中 命名 实体 识别 正 确 的 样本 数 
Peesion 一 模型 中 命名 实体 识别 的 总 样本 数 C3) 

模型 中 命名 实体 识别 正 确 的 样本 数 
Recall = 模型 中 而 名 实体 识别 的 总 样本 数 ©0) 
依据 公式 , 本 实验 验证 过 程 分 别 将 Training 生成 Word2Vec 


词 向 量 T,, 测试 数据 中 的 Testa 和 Testb 分 别 生 成 的 Word2Vec- 


ACYV 词 向 量 Tas 和 7Tb。， 


其 中 式 (3) 中 的 4 赋值 为 0.6。 将 这 


三 种 词 向 量 用 于 4 种 类 型 的 命名 实体 任务 中 ， 得 到 的 各 自 的 


五 -Measure 值 比较 分 别 如 图 


3~6 所 示 。 
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Testb 


务 中 Fi-Measure 的 比较 


Testb 


E 务 中 Fi-Measure 的 比较 


Testb 


F 务 中 Fi-Measure 的 比较 
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training Testa 


词 向 量 7,、 


6 training、Testa 和 Testb 词 向 量 FER 任 


Testb 


务 中 Fi-Measure 的 比较 


根据 图 3~6 的 结果 显示 ， 用 Training 训练 出 的 Word2Vec 


Testa 训练 出 的 Word2Vec-ACYV 词 向 量 Ta,, 和 Testb 


录用 稿 


训练 出 的 Word2Vec-ACYV 词 向 量 7b 与 逻辑 回归 分 类 模型 一 起 


pe 


从 


于 CoNLL 2003 NER 任务 中 得 到 当 “ 赋值 为 0.6 时 ,LOC、 

MISC、ORG 和 FER 这 四 类 命名 实体 任务 任务 中 的 五- Measure 
值 ， 在 LOC 命名 实体 任务 中 Training、Testa 和 Testb 的 
五 -Measure 值 分 别 为 61.14、65.75 和 62.4; 在 MISC 命名 实体 
任务 中 Training、Testa 和 Testb 的 五 -Weaswre 值 分 别 为 25.62、 
29.64 和 28.4; 在 ORG 命名 实体 任务 中 Training、Testa 和 Testb 
的 五-Weasxure 值 分 别 为 21.55、24.2 和 26.95; 在 FER 命名 实体 
任务 中 Training、Testa 和 Testb 的 五 -Measure 值 分 别 为 42.5、 


45.69 和 43.93 .其 中 Testa 训练 出 的 Word2Vec-ACYV 词 向 量 7Tz。 


在 LOC、MISC 和 FER 任务 的 -Measure 值 最 高 ，Training 训 


练 出 的 Word2Vec 词 向 量 T, 在 LOC、MISC 和 FER 命名 实体 任 


务 的 五 -Weasue 值 最 低 。 其 中 在 MISC 任务 中 ， 利 用 Testa 的 
Word2Vec-ACV 词 向 量 Te。 得 到 的 五 -Weasxwre 值 比 单纯 利用 
Training 数据 训练 
4.02 个 百分点 ， 利 用 Testb 的 Word2Vec-ACV 词 向 量 7b。 得 到 


出 的 Word2Vec 词 向 量 的 五 -Measure 值 高 出 


的 五 -Weoswre 值 比 单纯 利用 Training 数据 训练 出 的 Word2Vec 
词 向 量 的 五 -Measure 值 高 出 2.78 个 百分点 。 


经 过 对 实验 结果 的 分 析 ， 采 用 Word2Vec-ACYV 模型 训练 


CE 


来 的 词 向 量 mm。 和 75,, 在 区 分 词 的 不 同 含义 方面 要 优 于 单纯 采 


201804.01447V1 


国 
国 


chinaXiIv 


i 


Word2Vec 模型 
为 了 验证 Word2Vec-ACYV 模型 对 OOV 创建 词 向 量 有 很 好 
的 效果 ， 先 对 Training 数据 使 用 Word2Vec 模型 进行 100 次 迭 


训练 出 来 的 词 向 量 T,。 


i 


代 训 练 出 词 向 量 ， 
] 零 向 量 表示 。 然 后 分 别 对 Training、Development、 和 Test 数 
据 训 练 出 来 的 词 向 量 进行 NER 实验 。 


其 中 Development 和 Test 数据 中 的 OOV 词 


实验 时 ,对 式 (3) 中 的 a 分别 赋值 为 0、0.1、0.2、0.3、0.4、 
0.5、0.6、0.7、0.8、0.9、1。 当 a=1 时 , 分 两 种 情况 : 第 一 种 是 
将 Training 数据 训练 出 来 的 Word2Vec 词 向 量 , 与 Training 数 


据 的 全 局 平均 上 下 文 词 向 量 (global ACV) 相 乘 得 到 Global 词 


向 量 , 如 图 7、8 所 示 的 global; 第 二 种 是 将 Development 和 Test 
数据 训练 出 的 Word2Vec 词 向 量 分 别 与 Development 和 Test 数 


据 局 部 平均 上 下 文 词 向 量 (local ACV) 相 乘 创建 出 OOV 词 向 
量 ， 如 图 7、8 所 示 的 OO0OV。 当 0<a<1 时 ， 分别 将 单个 
Development、Test 数据 的 局 冰 


败 


平均 上 下 文 词 向 量 (local ACV) 


与 Training 数据 的 全 局 平均 上 下 文 词 向 量 (global ACV ) 在 0~1 
间 取 一 个 权 值 4 与 词 向 量 7, 相 乘 创 建 混合 型 OOV 词 向 量 。 实 
验 采用 五 -Weaswre 值 进 行 评估 ， 评 估 结 果 如 图 7、8 所 示 。 


实验 结果 显示 , 使 用 Word2Vec-ACYV 模型 生成 的 词 向 量 在 
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当 4 赋值 为 0.6 时 ，-Measure 值 最 高 ， 明 显 高 于 4 赋值 不 为 
0.6 时 的 五 -Measure 值 ， 这 说 明 单个 文档 的 Local ACV 和 全 语 
料 库 的 Global ACV 混合 起 来 的 Word2Vec-ACV ee 
的 混合 型 词 向 量 优 于 单个 文本 创建 出 来 的 词 向 量 。 经 过 对 实 缉 
结果 的 分 析 说 明 ， 将 单个 文档 的 Local ACV 和 全 语料库 
Global ACV 混合 起 来 创建 出 混合 型 的 Word2Vec-ACV 词 
相 比 于 Word2Vec 模型 生成 的 词 向 量 更 能 有 效 地 为 集 外 词 
词 向 量 并 使 词 向 量 符合 其 上 下 文 语 境 的 含义 。 
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5 ”结束 语 


本 文 将 上 下 文 语 境 环境 的 相似 性 信息 纳入 到 Word2Vec 模 
型 中 ， 针 对 传统 的 自然 语言 模型 不 能 根据 语 境 环境 为 集 外 词 创 
建 词 向 量 的 问题 ， 本 文 提出 了 一 种 基于 平均 上 下 词 向 量 的 
Word2Vec-ACYV 模型 。 

该 模型 基于 CBOW 和 Hierarchical Softmax 框架 的 
Word2vec 模型 训练 出 权重 矩阵 W ， 再 分 别 对 语料库 和 集 外 词 
所 在 的 文档 生成 共 现 矩阵 Cowww 和 Co 再 对 共 现 矩阵 进行 归 


NER 任务 中 要 优 于 Word2Vec 模型 生成 的 词 向 量 , 其 中 Training 
代表 Word2Vec 模型 生成 的 词 向 量 用 于 NER 任务 。 当 “赋值 为 
1 时 ，Globale 对 应 的 五 -Weaswe 值 与 OOV 对 应 的 Measure 
值 相 差 不 大 ， 因 为 其 词 向 量 的 计算 都 是 基于 它们 各 自 的 全 局 上 


化 处 理 分 别 得 到 语料库 的 平均 上 下 文 词 向 量 矩 阵 Www 和 集 
外 词 所 在 的 文档 的 平均 上 下 文 词 向 量 矩 阵 Www 。 再 对 Woowu 与 
Viat 中 相同 词 w 对 应 的 词 向 量 按 一 定 的 比例 4 求 和 得 到 加 权 


下 文 训 练 出 的 Word2Vec 词 向 量 与 它们 各 自 的 平均 上 下 文 词 向 
量 相 乘 得 到 的 ; 当 0<a<1l 时 , 混合 型 Word2Vec-ACYV 生成 的 词 
量 对 应 -Measure 值 随 着 4 的 取 值 成 在 一 定 的 相关 性 ， 其 中 


平均 上 下 文 词 向 量 和 矩阵 9$ ， 最 后 将 平均 上 下 文 词 向 量 矩 阵 $ 与 
权重 和 矩阵 W 相 乘 得 到 最 终 的 词 向 量 矩 阵 Ws, ， 该 模型 会 在 一 定 
程度 上 提升 词 的 侍 入 效果 。 

将 Word2Vec-ACV 模型 与 Word2Vec 模型 应 用 于 类 比 任务 


ACYV 模型 训 终 


如 


出 来 的 词 向 量 应 用 在 capital-world 类 别 任务 


的 


准确 率 是 Word2Vec-ACYV 模型 训练 出 来 的 词 向 量 的 1.7 倍 以 上 ， 


能 更 加 准确 地 反映 出 词 在 特定 语 境 的 意义 。 在 命 
务 的 实验 中 ， 基 于 global ACV 和 local ACV 的 Word2Vec-ACV 
模型 训练 出 来 的 词 向 量 
global ACV 的 


nn 


最 高 ， 表 明 结 合 local ACV 创建 的 Word2Vec-ACYV 词 向 量 在 不 


| 
T 


名 实体 识别 任 


量 得 到 的 -Measure 值 要 高 于 单独 使 
出 来 的 词 向 量 得 到 人 
当 & 取 值 为 0.6 时 指标 五 -Measure 的 值 


Word2Vec-ACV 模型 训练 
— Measure 值 总 其 中 9 


(个 


同 语 境 
虑 上 下 文 向 量 和 矩阵 中 是 否 
入 到 模型 中 ， 以 期 望 


能 有 效 地 区 


分 词 的 不 同 含义 。 在 下 一 步 研究 中 ， 将 考 
;能 融入 更 多 元 信息 ， 如 将 语序 信息 加 
能 更 加 完善 模型 生成 词 向 量 的 准确 性 。 
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